今天要和大家談的話題:PD,我想不管身為哪一種系統的管理者多多少少都會遇到的,也最怕碰到的就是系統出了問題的時候,我們要如何檢查,才能找出問題所在,儘快修復.因為這時候會有一堆人望著你:
Users:系統什麼時候好啊?!我們很多事都不能做耶~
Admin:已經正在緊急處理了,我們會儘快修好的,再等一會
(心裡OS: 我怎麼知道什麼時候好,我又不是萬能的神,可以預知未來)
其實身為IT人,很多時候有許多無奈,因為有時候解決問題的決定權不見得在自己身上,有可能是AP的問題造成,也有可能是硬體造成....等等諸多因素,這個時候如果你能瞭解基本檢測錯誤的動作,就可以幫助你更迅速的找出問題,排除障礙,使系統儘速恢復正常,雖然說AIX是一套非常穩定的系統,但也難保不會有出包的狀況.現在就來教大家如何PD啦~
早在1997年,IBM已經為Power系列引用FFDC(First Failure Data Capture)技術,FFDC能夠在系統運行時有效地捕獲硬體的錯誤,讓pSeries Server能夠自我診斷和自我修復.而且在pSeries Server 的硬體上有一張卡 Service Process Card 會記載系統上發生的所有錯誤.然後透過 errdemon 把最新的一筆錯誤資訊從硬體上的NVRAM(nonvolatile random access memory)讀取出來,再寫到/var/adm/ras/errlog 這個檔案.而我們可以透過errpt這個指令產生一份系統的錯誤報告,操作如下:
root#errpt
針對上表,如果對其中一筆錯誤資訊要更詳細資料,你可以用aj參數來看
root#errpt -aj 2F3E09A4
看到上面一堆字有沒有很頭疼啊?我還只是擷取一小部份讓大家參考一下呢,不過你放心,IBM很大方的,不會像xx那麼小氣,只會給你一片藍底白字,你還得辛苦地另外分析出來還不見得看的懂;所以我現在就來和大家說怎麼看這份錯誤報告啦,一般在errpt –a 的報告中,我們就可以大略看出系統發生甚麼事情,這些欄位的定義如下:
LABLE:事件名稱
IDENTIFIER:事件ID
Date/Time:發生的時間
Sequence Number:事件序列號
Machine ID:機器標識 (uname –m)
Node ID:機器名稱 (hostname)
Class:事件來源(S-軟體 / H-硬體 / I-信息 / U-未定 )
Type:事件類型,有以下六種
=>1.PEND-設備或元件的可用性損失是急迫的
=>2.PERF-設備或元件的性能已下降到可接受的級別以下
=>3.PERM-出現了不可恢復的情況。如果錯誤類型為這個值,那麼通常是最嚴重的錯誤,並且很可能意味著出現了硬體設備或者軟體模組的故障;如果錯誤類型為 PERM 之外的其他值,通常並不表示故障,但是對這些錯誤進行了記錄,以便可以使用診斷程式對它們進行分析
=>4.TEMP—在出現多次不成功的嘗試之後,所恢復到的狀態。這種錯誤類型也可以用於記錄資訊性條目,如 DASD 設備的資料傳輸統計資訊
=>5.UNKN—無法確定錯誤的嚴重程度
=>6.INFO—錯誤日誌條目是資訊性的,並且不是某個錯誤所產生的結果
Resource Name:檢測到錯誤的資源的名稱
對於軟體錯誤,這是某個軟體元件或可執行程式的名稱。對於硬體錯誤,這是某個設備或系統元件的名稱。它並不表示該元件出現故障或者需要更換。相反,它用於確定合適的診斷模組以用於對錯誤進行分析。
Resource Class:檢測到故障的資源的一般類別(例如,磁片的設備類別)
Resource Type:檢測到故障的資源的類型
Location Code:設備的路徑,最多可能有四個欄位,分別是抽屜、插槽、連接器和埠
VPD:關鍵的產品資料;這個欄位的內容(如果存在)可能各不相同。設備的錯誤日誌條目通常返回有關設備製造商、序列號、工程變更級別、以及唯讀儲存級別的資訊。
Description:錯誤資訊的描述。
Probable Cause:一些可能的錯誤原因的列表。
User Causes:由用戶錯誤所導致錯誤的可能原因的列表,用戶所導致的錯誤可能包括不正確插入的磁片、未能開啟的外部設備(如數據機和印表機)。
Actions:對於糾正用戶所導致的錯誤的推薦操作的描述。
Install Causes:因為不正確的安裝或者配置過程所導致錯誤的可能原因列表.這種類型的錯誤包括硬體和軟體不匹配、電纜的不正確安裝或電纜連接變鬆,以及未能正確配置的系統。
Actions:對於糾正安裝所導致的錯誤的推薦操作的描述。
Failure Causes:可能的硬體或者軟體故障列表。
Actions:對於糾正故障的推薦操作的描述。對於硬體錯誤,這將導致運行診斷程式。
Detailed Data:針對每個錯誤日誌,目的、唯一的故障資料,如設備檢測資料。
以上就是錯誤報告的內容了,如果有AIX的人可以自己實際操作看看囉~
再來就是一個經驗的小小建議:一般在做完大的保養或是零件更換後,會把errpt中所有的紀錄備份到一個檔案然後清空.讓管理者可以一目了然且輕鬆的知道到底系統現在的運行狀況,操作如下:
備份errpt中所有的紀錄到一個檔案:
清空error report :